Chuyển sang Thị giác Máy tính: Vì sao lại là CNN?

Chuyển sang Thị giác Máy tính

Hôm nay chúng ta chuyển từ xử lý dữ liệu đơn giản, có cấu trúc bằng các lớp tuyến tính cơ bản sang giải quyết dữ liệu hình ảnh ở chiều cao. Một hình ảnh màu đơn lẻ đã tạo ra sự phức tạp đáng kể mà các kiến trúc tiêu chuẩn không thể xử lý hiệu quả. Học sâu cho thị giác cần một phương pháp chuyên biệt: mạng nơ-ron tích chập (CNN).Mạng nơ-ron tích chập (CNN).

1. Tại sao Mạng nơ-ron đầy đủ kết nối (FCN) lại thất bại?

Trong FCN, mỗi pixel đầu vào phải được kết nối với mọi nơ-ron ở tầng tiếp theo. Với hình ảnh độ phân giải cao, điều này dẫn đến bùng nổ về tính toán, khiến việc huấn luyện trở nên bất khả thi và khả năng tổng quát kém do hiện tượng quá khớp nghiêm trọng.

Kích thước đầu vào:Một hình ảnh RGB chuẩn kích thước $224 \times 224$ sẽ tạo ra $150.528$ đặc trưng đầu vào ($224 \times 224 \times 3$).
Kích thước tầng ẩn:Nếu tầng ẩn đầu tiên sử dụng 1.024 nơ-ron.
Tổng tham số (tầng 1): Khoảng $154$ triệu trọng số ($150.528 \times 1024$) chỉ riêng cho khối kết nối đầu tiên, đòi hỏi bộ nhớ khổng lồ và thời gian tính toán lớn.

Giải pháp từ CNN

CNN giải quyết vấn đề mở rộng của FCN bằng cách khai thác cấu trúc không gian của hình ảnh. Chúng nhận diện các mẫu (như đường viền hoặc đường cong) thông qua các bộ lọc nhỏ, giảm số lượng tham số hàng chục lần và tăng độ bền.

MÁY TÍNHbash — môi trường mô hình

> Đã sẵn sàng. Nhấp vào "Chạy" để thực thi.

KIỂM SOÁT HIỆU QUẢ THAM SỐĐang trực tiếp

Chạy so sánh để trực quan hóa số lượng tham số.

Câu hỏi 1

Điều gì là lợi ích chính khi sử dụng Vùng cảm nhận cục bộ trong CNN?

Các bộ lọc chỉ tập trung vào một vùng nhỏ, cục bộ của hình ảnh đầu vào.

Nó cho phép mạng xử lý toàn bộ hình ảnh một cách toàn cục cùng lúc.

Nó đảm bảo tất cả tham số đều được khởi tạo bằng 0.

Nó loại bỏ nhu cầu về các hàm kích hoạt.

Câu hỏi 2

Nếu một bộ lọc $3 \times 3$ được áp dụng trên toàn bộ hình ảnh, khái niệm cốt lõi nào của CNN đang được sử dụng?

Chuẩn hóa nhân

Tham số chung

Kết nối hoàn toàn

Chuyển vị đặc trưng

Câu hỏi 3

Thành phần CNN nào chịu trách nhiệm giảm dần kích thước không gian (chiều rộng và chiều cao) của các bản đồ đặc trưng?

Kích hoạt ReLU

Lớp lấy mẫu (phân nhóm)

Chuẩn hóa Batch

Thử thách: Nhận diện các thành phần cốt lõi của CNN

Liên hệ các cơ chế CNN với lợi ích chức năng của chúng.

Chúng ta cần xây dựng một mô hình thị giác rất tiết kiệm tham số và có thể nhận diện đối tượng ngay cả khi nó dịch chuyển một chút trong hình ảnh.

Bước 1

Cơ chế nào đảm bảo mạng có thể nhận diện một đặc trưng (ví dụ như một đường chéo) bất kể nó nằm ở đâu trong khung hình?

Lời giải:
Tham số chung. Bằng cách sử dụng cùng một bộ lọc ở mọi vị trí, mạng học được tính bất biến dịch chuyển.

Bước 2

Lựa chọn kiến trúc nào giúp CNN phát hiện đặc trưng với ít tham số hơn FCN?

Lời giải:
Vùng cảm nhận cục bộ (hoặc kết nối thưa). Thay vì kết nối với mọi pixel, mỗi nơ-ron chỉ kết nối với một vùng nhỏ, cục bộ của đầu vào.

Bước 3

Cấu trúc CNN dẫn đến học đặc trưng bậc thang (ví dụ: đường viền $\to$ góc $\to$ đối tượng) như thế nào?

Lời giải:
Các tầng chồng lên nhau. Các tầng sớm học các đặc trưng đơn giản (đường viền) bằng phép tích chập. Các tầng sâu hơn kết hợp đầu ra từ các tầng trước để tạo ra các đặc trưng phức tạp, trừu tượng (đối tượng).